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摘要 : 


基于 统计 和 特征 相 结合 的 查询 纠 错 方法 


【 目的 】 提 高 搜索 引擎 查询 纠 错过 程 中 的 准确 率 和 召回 率 , 改善 用 户 的 检索 体验 。[ 方法 ] 提出 一 种 基于 


统计 和 特征 相 结 合 的 查询 纠 错 模型 ,建立 混淆 集 生成 模型 , 将 用 户 输 入 的 查询 关键 字 生 成 其 对 应 的 混淆 集 ; 建 


立 混淆 集 排序 模型 ， 对 混淆 集中 的 词 条 进行 排序 , 选 出 混淆 集中 最 佳 的 词 条 与 用 户 输入 的 查询 关键 字 对 照 ， 以 
此 达到 查 错 纠 错 的 目的 。[ 结果 】 实 验 结果 证 明 该 模型 在 搜索 引擎 查询 时 具有 较 好 的 效果 , 测试 集 在 110k 时 的 
准确 率 和 召回 率 分 别 达 到 92.2% 和 95%， 相 对 于 N-gram 纠 错 模 型 准确 率 和 召回 率 分 别提 高 13.6% 和 8.3%。[ 局 
限 ] 该 模型 中 混淆 集 的 生成 规则 有 限 、 模 型 的 训练 需要 大 量 的 计算 。[ 结论 】 本 模型 能 够 提高 搜索 引擎 查询 的 准 


确 率 及 效率 , 改善 用 户 的 检索 体验 。 
关键 词 : 查询 纠 错 ” 混 消 集 N-gram 模型 
分 类 号 : TP391 G35 
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1 3 引 


随 着 互联 网 技术 的 不 断 进步 和 创新 , 人们 对 搜索 
引擎 在 查询 、 检 索 过 程 中 的 准确 性 和 方便 性 提出 更 高 
的 要 求 , 这些 需求 对 搜索 引擎 在 查询 纠 错 方面 的 技术 
也 提出 更 高 的 挑战 。 对 用 户 查 询 意图 的 识别 研究 中 发 
现 , 用 户 在 使 用 搜索 引擎 查询 时 ， 目 标 往往 不 是 非常 
明确 或 者 说 是 准确 的 ， 作 为 计算 机 系统 来 说 ， 如 何 正 
确 识别 用 户 的 查询 、 检 索 条 件 ,对 输入 有 误 的 查询 关 
键 字 自动 检 错 并 纠 错 ， 并 给 出 用 户 满意 的 查询 结果 成 
为 搜索 引擎 查询 技术 研究 的 重要 方面 。 

本 文 针 对 搜索 引擎 查询 纠 错 的 过 程 和 方法 进行 研 
究 , 提出 基于 统计 和 语言 特征 相 结合 的 查询 纠 错 方法 ， 
建立 模型 并 通过 实验 验证 了 该 方法 在 搜索 引擎 查询 纠 
错过 程 中 的 有 效 性 , 提高 了 搜索 引擎 的 容错 能 力 和 易 
用 性 , 同时 也 改善 了 用 户 的 搜索 体验 。 


了 中 
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2 研究 现状 


国外 对 于 拼写 纠 错 技术 研究 早 于 国内 ,英文 文本 
的 勘 校 中 , 不 需要 考虑 分 词 问题 , 英文 单词 之 间 用 空 
格 分 开 ， 只 需 对 单个 词 进 行 拼写 检查 , 通常 用 编辑 中 
离 站 计算 词 与 词 之 间 的 相似 度 ,再 结合 词 在 文本 中 的 
统计 信息 判断 错误 拼写 如 Senger 等 中 通过 分 析 查 询 
关键 字 的 拼写 错误 以 及 错误 的 特征 对 药物 信息 系统 的 
拼写 错误 进行 纠正 。 

中 文 表 达 使 用 的 是 汉字 , 具有 中 文 语言 的 特殊 
性 。 中 文 信息 处 理 过 程 存 在 的 同义词 、 同 音 词 、 多 音 
字 等 问题 常常 会 出 现在 中 文 的 查 错 纠 错 中 , 使 得 中 文 
的 查询 纠 错 变 得 错综复杂 。 目 前 中 文 查询 纠 错 常 见 的 
方法 有 两 种 : 基于 字典 的 方法 外 和 基于 文本 统计 信息 
的 方法 中。 基于 字典 的 处 理 方法 需要 建立 一 个 庞大 的 
字典 ,应 用 字符 串 匹 配 的 方式 在 字典 中 查询 ， 查 询 纠 
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目 编号 :61103112) 的 研究 成 果 之 一 。 


错 准 确 率 很 高 , 但 是 词典 需要 维护 ， 随 着 网 络 和 自然 
语言 的 飞速 发 展 , 新 词 、 网 络 流行 词汇 层出不穷 , 仅仅 
依靠 扩大 词典 的 收录 规模 难以 满足 当前 的 查询 纠 错 效 
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实现 混淆 集 的 排序 。 混 淆 集 排序 模型 的 建立 是 一 个 关 
键 和 重要 的 环节 ， 此 过 程 也 是 对 混淆 集中 的 候选 串 进 
行 评价 和 选择 的 过 程 , 候选 串 排 序 后 选择 其 中 评分 最 


率 门 。 而 基于 文本 统计 信息 的 方法 借助 于 大 规模 的 语 
料 库 ， 从 已 有 的 大 量 实例 中 挖掘 分 析 语言 内 在 的 关联 
关系 及 其 特征 , 将 其 加 入 到 统计 模型 中 去 , 而 不 依赖 
于 词典 , 也 能 取得 较 好 的 纠 错 效 率 。 

现 阶段 对 于 查询 纠 错 的 研究 , 重点 在 利用 网 络 数 
据 和 查询 日 志 获 取 用 户 查 询 以 及 查询 错误 的 规律 特 
征 , 并 将 其 使 用 到 查询 纠 错 中 ， 如 Strohmaier 等 由 利用 
搜索 引擎 查询 日 志 记 录 获 取 用 户 查 询 意图 , Roy 等 " 通 
过 对 大 量 查询 日 志 记 录 的 严密 分 析 ， 发 现 和 理解 用 户 
的 意图 , 取得 了 很 好 的 效果 。Subramaniam 等 四 结合 编 
辑 距 离 和 基于 查询 日 志 的 语言 统计 模型 进行 查询 纠 
错 。 基 于 搜索 引 警 查询 日 志 记 录 结 合 文本 统计 特征 对 
用 户 的 查询 进行 纠 错 , 已 成 为 现 阶段 搜索 引擎 查询 纠 
错 人 研究 的 重要 方面 。 


3 主要 方法 


本 文 提出 一 种 基于 统计 和 特征 相 结合 的 查询 纠 错 
模型 ， 建 立 混 消 集 生成 模型 对 用 户 输入 的 查询 串 建 模 ， 
并 生成 混淆 集 轨 。 混 淆 集 生 成 模型 认为 用 户 的 所 有 输 
入 是 不 可 信 的 , 但 不 是 无 用 的 , 用 户 的 目标 查询 串 (用 
户 真 实意 图 的 查询 中 串 ) 可 视 为 输入 串 经 过 混淆 集 生 成 
模型 而 得 到 的 ， 即 用 户 的 输入 冲 经 过 混 消 集 生 成 模型 
后 的 混淆 集中 包含 目标 查询 串 。 建 立 混淆 集 排序 模型 
对 混淆 集中 的 候选 串 排序 ， 筛 选 出 最 佳 的 候选 串 , 并 
与 原 串 比较 得 出 纠 错 结果 。 这 个 过 程 将 查 错 和 纠 错 两 
个 阶段 合 二 为 一 ， 而 且 筛 选 出 的 最 佳 候选 词 条 具有 很 
高 的 正确 率 。 整 个 纠 错过 程 如 图 1 所 示 : 


图 1 模型 结构 


在 此 过 程 中 ,有 两 个 关键 的 步骤 : 依据 用 户 输入 
查询 串 生 成 混 闯 集 ; 对 混淆 集中 的 候选 串 进行 综合 评 
价 并 排序 。 生 成 的 混淆 集 要 保证 用 户 的 目标 查询 串 包 
含 其 中 , 并 且 生 成 的 混淆 集 的 规模 不 能 太 大 ， 即 尽量 
避免 不 可 能 出 现 的 错误 词 条 ,否则 计算 量 太 大 而 无 法 


高 的 作为 最 优 候选 结果 , 与 用 户 输入 串 比 较 得 出 纠 错 
结果 ,此 过 程 需要 用 到 语言 学 、 统 计 学 、 大 量 的 数据 
挖掘 和 分 析 等 知识 , 才能 保证 获取 最 优 的 候选 结 
3.1 ”混淆 集 生成 模型 

混淆 集 的 生成 模型 的 建立 是 整个 纠 错过 程 的 关 

键 , 需要 满足 两 个 条 件 : 尽量 将 所 有 可 能 出 现 的 错误 
词 条 都 包含 到 混淆 集中 ; 尽量 不 包含 不 可 能 出 现 的 错 
误 词 条 。 满 足 第 一 个 条 件 才能 从 混淆 集中 得 到 正确 的 
纠 错 结果 ， 提 高 纠 错 准确 率 ; 满足 第 二 个 条 件 可 避免 
不 可 能 出 现 的 错误 词 条 对 纠 错 结果 的 干扰 ,避免 大 量 
的 计算 , 提高 纠 错 的 效率 。 
用 户 输入 的 查询 关键 字 并 不 可 靠 , 所 以 不 能 直接 
以 查询 串 为 单位 生成 混淆 集 ， 先 对 每 个 输入 查询 串 分 
词 , 针对 每 个 分 词 产 生 各 自 的 候选 词 集合 , 依据 原 输 
人 查询 串 的 分 词 结果 将 候选 词 交 叉 组 合 , 形成 混淆 
集 。 对 搜索 引擎 查询 日 志 记 录 分 析 可 知 , 在 用 户 输入 
的 查询 关键 字 中 , 93.15% 的 分 词 数目 不 超过 3 这 使 
得 候选 短语 矩阵 在 可 以 接受 和 人 处理 的 范围 之 内 。 

用 户 输入 的 关键 词 有 两 个 重要 特点 : 错误 都 是 局 
部 的 字 词 级 别 的 ; 不 同 的 输入 方法 具有 相应 的 错误 形 
式 。 即 对 于 某 个 用 户 输入 的 词 条 , 其 出 错 的 可 能 性 集 
合 即 混 消 集 可 以 通过 预先 设 定 的 规律 有 效 生成 。 

王 斯 宇 等 中 在 基于 CSSCI 的 文本 自动 校对 系统 的 
构建 与 实现 中 , 采用 基于 混淆 集 和 上 下 文 特征 的 方法 
进行 文本 自动 校对 ,对 字 、 词 语 根 据 汉 字 的 输入 方式 
建立 混淆 集 。 而 本 文中 的 混淆 集 主 要 基于 字音 的 方式 
生成 分 词 的 候选 项 ， 对 每 个 分 词 的 候选 项 交叉 组 合 ， 
形成 候选 项 集合 ， 即 混 消 集 。 具 体 过 程 如 下 : 假定 输入 
串 为 q=q1q2q3…qn， 其 中 qi 表示 第 i 个 分 词 , 对 于 qi 
根据 一 定 的 规律 生成 候选 项 ,这些 规律 参考 文献 [9]， 
主要 包括 以 下 方面 : 

(1) 多 音字 、 同 音 词 情况 

用 户 在 使 用 搜索 引擎 检索 时 ， 主 要 是 靠 输入 法 手 
动 选择 合适 的 字 词 ， 这 个 过 程 是 没有 音节 的 ， 而 且 拼 
音 输入 法 的 重 码 率 很 高 ,所 以 会 出 现 同音 字 、 多 音字 
的 选择 ,多 音字 情况 例如 :“ 大 夫 ( 医 生 )” 和 “大 夫 ( 古 代 
官 名 )” 同音 情况 例如 : 输入 “jishu” 可 能 会 出 现 “ 技 
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术 ”“ 级 数 ”、“ 奇 数 "等 。 这 种 因 选 择 而 导致 的 错误 是 
最 多 的 。 

(2) 简写 、 缩 写 情 况 

现在 的 输入 法 为 了 方便 用 户 , 在 用 户 输 入 查询 关键 
字 时 , 可 能 会 出 现 汉字 拼音 的 简写 , 例如 用 户 输入 md” 
可 能 代表 的 词语 是 “麦当劳 *"、“ 没 电 了 ”"、“ 耶 盾 论 ”等 。 

(3) 音节 靶 义 情况 

在 利用 输入 法 输入 查询 关键 字 时 ， 对 于 有 些 词语 存 
在 音节 层 义 的 情况 , 例如 :“xianren” 可 以 分 为 “xian ren” 
即 % 仙 人 ”、“ 线 人 ”也 可 以 分 为 “xi an ren”* 即 “西安 人 ”。 

(4) 近 音 词 情 况 

近 音 词 情况 包含 声母 相似 和 韵母 相似 : 声母 最 常 混 
涌 的 有 “和 "> 、 和 后 、 人 和 “人 和 等 ; 韵母 
最 常 混淆 的 有 “> 和 “ei”、“an 和 “ang”、“on7 和 “ong" 等 。 

根据 以 上 的 候选 项 生成 规律 产生 分 词 的 候选 项 集 
合 , 交叉 组 合 形成 查询 串 的 混淆 集 。 混 消 集 生成 过 程 
如 图 2 所 示 : 


开始 


查询 串 分 词 、 注 音 


寻找 分 词 的 同音 、 多 音 、 缩 写 、 
近 音 、 音 节 歧 义 的 候选 词 集合 


按 分 词 在 原 串 中 的 次 序 ， 交 又 
组 合 各 候选 分 词 ， 形 成 混淆 集 


结束 
图 2 
分 词 的 候选 词 条 交叉 组 合 的 过 程 如 图 3 所 示 : 


混淆 集 生成 过 程 


W Wi W, 

Wil Wi Wi 

Wi WA W,, 

Wi Wai Wok 
图 3 混 消 集 生 成 过 程 


其 中 , 字符 串 S= W/W,…W,，W; 表示 原 输 入 串 
的 第 i 个 分 词 ，wi; 表示 第 一 个 分 词 的 第 i 个 候选 项 ， 
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wk 表示 第 n 个 分 词 的 第 k 个 候选 项 , 依次 交叉 组 合 
形成 混 消 集 。 
3.2 ”混淆 集 排序 模型 

从 用 户 的 输入 串 所 生成 的 混淆 集中 选择 最 佳 的 候 
选 词 条 ,此 过 程 其 实 是 一 个 评价 选择 的 过 程 。 要 使 纠 
错 结果 最 优 ,就 要 进行 有 效 的 评分 , 并 对 评分 结果 进 
行 有 效 的 排序 。 通 过 挖掘 查询 串 的 特征 描述 混淆 集 排 
序 模型 ， 从 而 得 到 有 效 的 排序 结果 , 选择 最 优 的 候选 
词 条 , 得 出 纠 错 结果 。 所 以 构造 有 效 的 排序 模型 是 一 
个 非常 重要 和 关键 的 环节 ,模型 参数 的 确定 也 需要 大 
规模 的 语料库 训练 得 到 ， 最 终 确定 模型 的 形式 。 

为 了 很 好 地 反映 候选 串 的 上 下 文 特征 , 将 自然 语 
言 处 理 中 广泛 应 用 的 N 元 语法 模型 5 引入 到 本 文 的 特 
征 中 。 目 前 对 于 互联 网 的 大 规模 搜索 引擎 日 志 的 用 户 
行为 分 析 也 已 经 有 一 些 研 究 成 果 , 余 慧 佳 等 上 选取 搜 
狗 搜 索引 警 一 个 月 内 的 查询 日 志 ， 就 用 户 查询 长 度 、 
查询 频 度 、 查 询 会 话 内 的 查询 数目 、 以 及 用 户 点 击 行 
为 进行 分 析 , 对 用 户 的 查询 意图 进行 预测 , 可 见 查询 

志 记 录 的 点 击 特 征 包含 着 用 户 的 检索 目的 ,这 个 特 

征 也 是 很 有 价值 的 , 因此 本 文 也 考虑 进来 。 再 考虑 
到 以 词 形 和 编辑 距离 比较 两 个 汉字 串 在 形态 上 的 相 
似 程度 中， 即将 N 元 语法 模型 、 查 询 词 点 击 率 、 词 形 
相似 度 、 编 辑 距离 等 因素 以 特征 的 形式 建立 候选 项 的 
排序 模型 并 对 候选 词 条 排序 ,从 而 在 候选 集合 中 获得 
最 优 候选 结果 。 

(1) N 元 语法 模型 

N-gram 模型 是 自然 语言 处 理 中 常用 的 算法 模型 ， 
对 于 中 文 ， 又 称 为 汉语 语言 模型 (Chinese Language 
Model，CLM)。 张 仰 森 等 ("在 中 文 的 文本 校对 中 使 
用 Bigram 模型 ， 张 仰 森 等 5 利用 trigram 和 上 下 文 依 
存 关系 分 析 来 进行 中 文 的 自动 查 错 ， 都 取得 了 一 定 
的 效果 。 

从 统计 的 角度 看 ,自然 语言 中 的 一 个 句子 s, 都 是 
由 一 连 串 特定 序列 的 词 qq …qn 构成 , 根据 链 式 规 
则 ， 句 子 s 出 现 的 概率 站 为 : 


P(s)=p(q1)p(q2 | qi )p(q3|19q291)***p(qn | qn 1…qlD) 


n 
= [pa 1qi-…qD) 


可 以 认为 对 于 每 一 个 出 现 的 词 , 其 出 现 的 概率 取 
决 于 这 个 词 前 面 的 所 有 词 。 但 是 从 计算 上 来 看 ,由 于 


(D 


计算 量 太 大 而 无 法 实现 。N-gram 模型 假定 任意 词 的 出 
现 概率 只 和 它 前 面 的 n-1 个 词 有 关 ， 即 : 
汪汪 二 O) 
i=]l 
公式 (2) 是 通过 大 量 的 语 料 统计 和 计算 得 出 的 , 语 
料 库 的 容量 越 大 其 频率 值 越 接近 其 概率 值 ， 因 此 在 大 
规模 语料库 的 前 提 下 , N-gram 模型 可 以 表示 为 : 


feq(qiqi_1) G) 
feq(qi_D) 


p(qi |qi_1) = 

其 中 ，feq(q;q;_ |) 表示 qiqi 在 语料库 中 同 现 的 频 
率 ，feq(q; 1) 表示 qi_ | 在 语料库 中 出 现 的 频率 。 

由 于 语料库 规模 有 限 , 许多 合理 的 搭配 关系 在 语 
料 库 中 不 一 定 出 现 ,因此 会 出 现 数据 稀 琉 现象 (' 零 概 
率 ” 问 题 ), 通常 在 不 扩大 语料库 规模 的 情况 下 ， 可 以 
利用 数据 平滑 技术 进行 调整 ， 以 消除 模型 参数 为 零 的 
数据 稀 玖 现象 , 使 得 模型 参数 的 概率 分 布 趋 于 均匀 ， 
提高 模型 整体 的 准确 率 。 

目前 已 有 很 多 数据 平滑 技术 ， 如 : Additive 
Smoothing 平滑 、Add-one 平滑 、Add-delta 平滑 、Witten- 
Bell 平滑 、Good-Turing 平滑 、Jelinek-Mercer 平滑 、 
Church-Gale 平滑 、Katz 平滑 等 。 本 文 应 用 Additive 
Smoothing 平滑 技术 号 ， 其 计算 方法 如 下 : 


3| Te ns 

其 中 0 科 5 科 1，V 表示 语料库 中 不 同 词 的 总 数 。 
对 于 二 元 语法 模型 , 本 文 取 5=1， 最 终 的 二 元 语法 模 
型 计算 公式 为 : 


Padditive(qn |qn_k+1…qn_1) = 


1+feq(q;,q; 
= q(Cqi,qi-1) (5) 
|V|+feq(qi_1) 


Poagitive (qi | Qi- 

(2) 查询 词 点 击 率 

点 击 记录 特征 1M 可 以 衡量 某 个 候选 串 的 查询 频 

度 , 查询 频 度 是 指 在 一 段 时 间 内 , 该 查询 词 被 提交 的 

总 次 数 。 查询 频次 可 以 作为 一 个 重要 的 启发 来 了 解 用 

户 的 搜索 行为 。Chen 等 号 /利用 日 志 的 点 击 记录 分 析 

用 户 的 偏好 ,从 而 提高 查询 纠 错 效 率 。 万 飞 等 中 1 利 

用 日 志 记 录 的 点 击 率 研究 用 户 搜 索 行为 ， 预测 用 户 

潜在 需求 。 本 文采 用 的 点 击 记录 是 所 用 日 志 库 中 的 

查询 词 频 。 由 于 对 输入 串 进行 分 词 ， 所 以 对 于 多 个 

词 构成 的 候选 串 ， 取 候选 串 各 词 频 的 均值 ,计算 方 
法 如 下 。 


1 n 
PerR CS)=pcTrR(qlqz …qn) = 之 pcrR (qi) (6) 
这 


(3) N-gram 相似 度 

本 文 需要 计算 用 户 输出 查询 串 和 各 候选 串 在 形态 
上 的 相似 性 ,发现 N-gram 相似 度 55 可 以 很 好 地 解决 
这 个 问题 ,N-gram 相似 度 是 指 : 利用 N-gram 思想 , 将 
词 和 词 的 相似 度 组 合成 N 元 词 的 N-gram 相 似 度 , 进而 
通过 计算 不 同 长 度 的 N-gram 相似 度 得 到 用 户 输 出 查 
询 串 和 各 候选 串 的 相似 度 。 最 经 典 的 应 用 是 机 带 翻 译 
自动 评测 技术 中 的 BLUE 方法 , 本文 参考 此 方法 通过 
统计 切 分 后 的 查询 串 和 候选 串 的 N-gram 元 组 占 候选 
串 总 N-gram 元 组 的 比例 确定 两 个 字符 串 的 N-gram 相 
似 度 。 计 算 公 式 如 下 : 


> count(n-gram) 
n-gramc,n-gramq (7) 
> count(n-gram) 


n-gramc 


其 中 分 子 表示 查询 串 和 候选 串 中 能 匹配 的 
N-gram 元 组 的 数目 , 分 母 表 示 候 选 串 中 N-gram 元 组 
的 数目 。 

(4) 编辑 距离 

编辑 距离 (Levenshtein Distance, LD) 算 法 经 常 被 
用 于 字符 串 相似 性 问题 的 计算 , 在 文本 比较 、 信 息 
处 理 等 领域 有 着 广泛 的 应 用 。 编 辑 距 离 指 两 个 字符 
串 之 间 ， 由 一 个 转换 成 男 外 一 个 所 需要 的 最 少 的 编 
辑 操 作 次 数 。 此 处 的 编辑 操作 包括 蔡 换 、 插 入 、 删 
除 字符 。 

近年 来 , 编辑 距 离 算法 在 计算 字符 串 相似 度 方面 
的 改进 取得 了 很 大 成 就 。Liang 等 04 将 整 条 记录 作为 
一 个 字符 串 ， 通 过 计算 两 个 字符 串 的 编辑 距离 判断 两 
个 字符 串 的 相似 程度 。 基 于 编辑 距离 计算 两 个 字符 串 
相似 度 的 计算 公式 如 下 


Rsim _n-gram (c， q) = 


pi=1-— (8) 
m+n 
ld 
pl (9) 
max(m,n) 


其 中 , ld 是 两 字符 串 间 的 编辑 距离 , m, n 分 别 为 两 
字符 串 的 长 度 , 但 上 述 公 式 并 不 具 普 遍 性 。 

赵 作 鹏 等 5 "提出 一 种 基于 改进 的 编辑 距离 相似 度 
求解 算法 ,其 中 包含 编辑 距离 LD， 两 个 字符 串 的 最 长 
公共 子 串 长 度 LCS(s,t), 并 考虑 到 两 字符 串 比 较 时 第 
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一 次 出 现 不 匹配 字符 的 位 置 8 。 本 文 的 编辑 距离 计算 
参照 此 改进 算法 , 计算 公式 如 下 : 
psim(s,q) = (10) 


ld+losi bm? 
Ln 


其 中 s, gq 是 比较 的 两 个 字符 串 ，L, 是 s 串 长 度 , 1d 
为 两 字符 串 间 的 编辑 距离 ，8 为 两 字符 串 第 一 次 出 现 
不 匹配 字符 的 位 置 。 

(5) 混 消 集 排序 模型 的 建立 

对 于 生成 的 候选 串 , 需要 在 排序 后 将 原 串 与 候选 
项 集合 中 的 最 佳 候选 串 比 较 ， 从 而 得 出 纠 错 结果 。 排 
序 模型 需要 综合 上 述 几 个 因素 来 综合 给 出 评分 , 才能 
取得 较 好 的 排序 效果 。 模 型 如 下 : 

Poverall_eval (S$, 9) = 和 ip(S) 二 和 2PCTR (S) + Npsim n-gram(s, 9) 

+ Napsim(s, q) 


(1) 


其 中 入 | 、X， 、 和 3 、 和 4 表示 N 元 语法 模型 、 查 询 
词 点 击 率 、 词 形 相 似 度 、 编 辑 距离 等 特征 的 相应 权重 ， 
并 且 和 + 和 ,+ 和 + 和 =1。 


4 实验 过 程 及 结果 分 析 


4.1 数据 集 

实验 所 用 到 的 查询 日 志 是 从 搜狗 实验 室 获取 的 
查询 日 志文 件 , 通过 去 噪 处 理 ,， 包括 排除 特殊 字符 、 
错别字 、 无 意义 字符 、 重 复 记 录 的 删除 ， 从 中 提取 
具有 代表 性 的 记录 ,并 对 记录 生成 编号 、 注 音 , 形成 
查询 日 志 记 录 , 记录 数 是 50 万 条 ,结构 如 表 1 所 示 。 
实验 用 到 的 词典 共 收 录 词 组 104 041 个 , 并 且 带 有 
拼音 (三 字 以 上 的 形成 简写 )， 词 典 文件 的 结构 如 表 2 
所 示 。 


表 1 查询 日 志文 件 结构 


词语 编号 内 容 拼音 带 声 调 拼 音 汉字 数 词语 数 
1 [哄抢 救灾 物资 ] hongqiangjiuzaiwuzi honglqiang2jiu4zailwu4zil 6 3 
2 [汶川 地 震 原 因 ] wenchuandizhenyuanyin wen4chuan1di4zhen4yuan2yin1 6 3 
3 [敬礼 男孩 心理 障碍 ] jinglinanhaixinlizhangai jing4li3nan2hai2xin1li3zhang4ai4 8 4 
表 2 词典 文件 结构 将 词典 中 的 词 条 按 词语 、 拼 音 、 带 声调 拼音 、 拼 音 
Ah 一 A 证 加 
a 本 se 音 简写 (三 字 以 上 形成 简写 )、 查 询 词 频 整 与 日 志 
编号 ”词语 拼音 带 声调 拼音 1 间 与 ( 本 上 形成 简 与 ) 查询 频 整 时 好 后 本 上 
a 匹配 , 得 到 该 词语 在 日 志 库 中 出 现 的 总 次 数 , 查询 词 频 
945 白面 书生 baimianshusheng bai2mian4shulshengl bmss a 和 ee 
人 ee | 的 信息 来 自 搜狗 实验 室 提供 的 搜狗 词 频 统 计 资 料 , 这 
978 白手 起 家 baishouqijia bai2shou3qi3jial bsqj 


些 词 频 作为 实验 中 的 查询 词 点 击 率 , 形成 的 语料库 规 


3986 buketongrieryu bu4ke3tong2ri4er2yu3 bktrey 模 为 106 246 条 记录 ， 语料库 文件 结构 如 表 3 所 示 : 
表 3 语料库 文件 结构 
词语 编号 词语 拼音 带 声调 拼音 拼音 简写 查询 词 频 日 志 中 出 现 次 数 
203 安全 理事 会 anquanlishihui anlquan2li3shi4hui4 aqlsh 0 73 040 
204 安全 门 anquanmen anlquan2men2 aqm 7 226 164 
205 报告 文学 baogaowenxue bao4gao4wen2xue2 bgwx 3 345 656 


实验 中 用 到 的 训练 集 是 由 查询 日 志 记 录 而 来 ,从 
日 志 记 录 的 50 万 条 中 通过 处 理 得 到 11 万 条 训练 记录 ， 
通过 训练 集训 练 得 到 混淆 集 排序 模型 的 参数 入 | 、 入 , 、 
入 3 、 和 4。 训练 集结 构 如 表 4 所 示 。 测 试 集 的 生成 是 
选取 日 志 记 录 中 的 一 些 常 用 查询 , 在 选取 的 词 条 中 随 
机 选取 某 词语 , 保证 该 词语 出 现在 语料库 中 , 然后 生 
成 该 词语 的 候选 项 ,替换 词 条 中 正确 的 词语 ,形成 < 错 
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误 词 条 , 正确 词 条 > 的 短语 对 。 测 试 集 文件 结构 如 表 5 
所 示 。 


表 4 ”训练 集 文件 结构 
词语 编号 词语 纠 错 结果 
61 林彪 事件 完整 调查 1 
124 极品 家 丁 0 
127 公务 员 改 革 工 资 标 ; 1 


( 注 : 纠 错 结果 中 1 表示 纠 错 成 功 , 0 表示 纠 错 未 成 功 。) 
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表 5 测试 集 文件 结构 


编号 错误 词 条 错误 词 条 拼音 正确 词 条 正确 词 条 拼音 测试 结果 

1 姚 命 打架 视频 yao2ming4da3jia4shi4pin2 姚明 打架 视频 yao2ming2da3jia4shi4pin2 1 

2 陈水扁 简历 chen2shui3bian3jian41i4 陈水扁 建立 chen2shui3bian3jian31i4 0 
4.2 ”评测 指标 开始 

在 对 纠 错 系统 的 评价 中 , 通常 以 召回 率 吕 

(Recall， 又 称 查 全 率 ) 和 准确 率 08(Precision， 又 称 查 | 人 中 读 取 训 练 集 词 条 , 分 词 、 注 音 | 
准 率 ) 作 为 评价 标准 ,判断 一 个 纠 错 模 型 的 优 劣 。 本 | re | 
实验 中 即 采 用 这 两 个 指标 衡量 模型 的 纠 错 效果 。 计 
算 公 式 如 下 | @@ 分 词 候选 项 交 又 组 合 形成 | 


混淆 集 , 即 候选 项 集 
了 


_ 纠 错 系统 返回 的 不 为 空 的 词 的 个 数 


Recall | 12 候选 项 综合 评分 计算 、 排 序 
eca (12) 四 各 候选 项 综合 评分 计算 、 排 序 
procision -系统 正确 查 出 的 错误 词 的 个 数 ji ] 全 最 优 候选 串 与 原 串 比较 得 到 ] 
2 垢 ， 
关键 词 测试 集中 词 的 总 数 纠 错 结果 


4.3 ”实验 过 程 及 结果 分 析 
利用 查询 日 志 记 录 ( 训 练 集 )、 语料库 和 词典 , 结合 


E 复 QD-@, 计算 准确 率 和 召回 率 ， 
S 最 优 的 模型 参数 


洪 昭 
em 
二 

痊 

\ 
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第 3 节 中 提出 的 纠 错 模型 ,得 到 纠 错 模型 的 最 优 参 数 ， 
并 利用 模型 对 测试 集 数据 测试 验证 纠 错 的 效果 。 
利用 语料库 结合 训练 集 得 到 模型 的 具体 表达 式 ， 图 4 获取 最 优 模型 参数 过 程 


确定 和 、 入 ,、 和 3、 和 的 最 优 值 ， 再 用 测试 集 验 证 模 
型 在 该 组 参数 下 的 纠 错 效 果 。 即 读 取 测 试 集中 的 测试 
词 条 ,对 其 进行 分 词 操作 ,根据 每 个 分 词 按照 混淆 集 
生成 模型 产生 其 候选 项 并 交叉 组 合 形成 测试 词 条 的 混 
消 集 ， 得 到 混 消 集 再 结合 混淆 集 排序 模型 ， 从 N-gram 
特征 、 点 击 词 频 特征 、 词 形 相 似 度 特征 、 编 辑 距离 特 a 
征 等 方面 对 混淆 集中 的 候选 串 进行 评价 、 排 序 , 计算 混淆 集 ， 即 候选 项 集 
方法 见 公 式 (1)。 找 出 候选 串 中 评分 最 高 的 候选 串 作 为 
最 优 候选 串 与 测试 词 条 比较 ， 若 一 致 ， 则 纠 错 成 功 ， 


OD 读 取 测试 集 词 条 ， 分 词 、 注 音 


@) 形 成 测试 集 词 条 各 分 词 候选 项 


@ 各 候选 项 综合 评分 计算 、 排 序 


否则 纠 错 失败 。 @@ 最 优 候选 串 比较 得 到 

整个 实验 过 程 可 简单 分 两 个 步 又: 

(1) 通过 训练 集 得 到 模型 的 最 优 参数 ， 如 图 4 所 示 。 结束 

(2) 通过 测试 集 验 证 模型 的 纠 错 效果 ,具体 实验 
过 程 如 图 5 所 示 。 图 $ 验证 模型 纠 错 效果 过 程 

实验 得 到 模型 的 参数 和 纠 错 结果 如 表 6 所 示 , 选 表 6， 训 练 模型 参数 表 
取 使 得 纠 错 的 准确 率 最 大 的 参数 组 作为 模型 的 最 优 参 编号 XI )2 Ns X% ”召回 率 ”准确 率 
数 ， 即 入 =0.78 、X,=0.20 、Xs=0.01 、X4=0.01。 1 0.01 0.01 0.01 0.97 93.17% 92.12% 

在 不 同 规模 的 测试 集 下 测试 纠 错 模 型 的 准确 率 和 2 0.01 0.01 0.02 0.96 93.28% 92.22% 
召回 率 ,6 组 测试 集 大 小 分 别 为 10k、30k、50k、70k、 3 001 001 003 0.95 93.21% 92.17% 
90k、110k, 在 不 同 规模 的 测试 集 下 本 文 提出 的 纠 错 模 050 001 001 048 93.25% 92.18% 
型 的 准确 率 和 召回 率 情况 如 图 6 所 示 。 加 0.97 0.01 0.01 0.01 93.17% 92.14% 


XIANDAI TUSHU QINGBAO JISHU 


201711.01249v1 


chinaXiv 


IOk 3K 5K 70k 90k TiOk 
测试 集 大 小 
二 准确 率 ”召回 率 


图 6 不 同 测试 集 下 模型 准确 率 和 召回 率 


从 图 6 的 结果 可 以 看 出 , 本 文 提 出 的 查询 纠 错 模 型 
所 考虑 的 统计 的 特征 信息 能 使 纠 错过 程 的 准确 率 和 召 
回 率 达到 一 定 效果 , 因此 该 纠 鲁 模 型 是 可 行 且 有 效 的 。 

将 本 文 提出 的 模型 实验 结果 和 单独 考虑 N-gram 
特征 、N-gram 相似 特征 、 编 辑 距离 特征 的 情况 做 比较 ， 
即 入 =1、 和 3=1 、 和 y=1, 单独 考虑 各 特征 且 在 不 同 测 
试 集 下 纠 错 的 准确 率 如 图 7 所 示 : 


OF 30k SO 70k 90k 1TOk 
测试 集 大 小 
二 N-gram 统计 模型 e-N-gram 相 似 度 和 万 编辑 距离 


图 7 对 比 单独 考虑 各 特征 时 的 准确 率 


从 图 7 可 以 看 出 纠 错过 程 中 只 考虑 单一 的 输入 串 
的 统计 特征 即 只 考虑 NN 元 语法 模型 编辑 距离 .N-gram 
相似 度 其 纠 错 的 准确 率 是 偏 低 的 。 

陈 智 脑 等 提出 通过 分 析 上 下 文 统计 信息 的 方 
法 ,建立 N-gram 统计 模型 ， 实 现 搜 索引 擎 中 对 查询 关 
键 字 的 自动 检查 和 纠 错 。 实 验 结果 如 图 8 所 示 : 


l0k 30k 50k 70k 90k 110k 
测试 集 大 小 
所 准确 率 -。- 召回 率 


图 8 N-gram 统计 模型 的 纠 错 准确 率 和 召回 率 
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从 实验 结果 的 统计 信息 可 以 得 出 以 下 结论 : 

(1) 通过 图 6 和 图 7, 可 以 看 出 纠 错过 程 中 只 考虑 
单一 的 输入 串 的 统计 特征 即 只 考虑 N 元 语法 模型 、 编 
辑 距 离 、N-gram 相似 度 其 纠 错 的 准确 率 是 偏 低 的 。 

(2) 比较 图 6 和 图 8, 可 以 得 出 如 果 纠 错 模 型 中 包 
含 的 上 下 文 统计 信息 比较 多 时 , 纠 错 的 效果 比较 好 。 
图 6 是 本 文 方法 的 实验 结果 , 图 8 是 建立 N-gram 统计 
模型 实现 查询 纠 错 ， 两 者 的 效果 差异 很 明显 ,本 文 提 
出 的 纠 错 模 型 较 N-gram 纠 错 模 型 , 在 测试 集 最 大 为 
110k 时 , 纠 错 的 准确 率 和 召回 率 分 别提 高 了 13.6% 和 
8.3%。 

(3) 通过 图 6、 图 7、 图 8 的 比较 还 可 以 得 出 , 本 
文 提出 的 纠 错 模型 是 合理 且 有 效 的 ,基于 各 统计 特征 
的 结合 ,将 查询 串 的 各 统计 特征 综合 起 来 进行 纠 错 ， 
纠 错 的 准确 率 和 召回 率 能 获得 理想 的 数值 且 能 保持 稳 
定 , 并 且 随 着 测试 集 规模 的 增 大 , 该 模型 可 以 获得 的 
统计 信息 和 特征 信息 就 越 多 , 纠 错 的 准确 率 和 召回 率 
也 随 之 提高 。 

(4) 通过 对 比 图 7 和 图 8 可 以 得 出 , 实验 中 存在 误 
差 ， 比较 两 次 实验 结果 误差 范围 仅仅 在 4%-6% 之 间 ， 
在 可 以 接受 的 范围 之 内 。 


S 结 语 


本 文 提出 一 种 基于 统计 和 特征 结合 的 查询 纠 错 模 
型 ,通过 对 输入 串 的 统计 特征 进行 分 析 , 结合 N 元 语 
法 模型 、 点 击 率 、N-gram 相似 度 、 编 辑 距 离 等 , 形成 
输入 串 的 混淆 集 , 结合 特征 对 混淆 集中 的 候选 词 条 进 
行 评价 排序 , 将 第 一 候选 项 与 输入 串 比较 得 到 纠 错 结 
果 。 通 过 实验 可 知 , 模型 的 准确 率 和 召回 率 受 语料库 
大 小 的 影响 ， 随 着 语料库 的 增 大 ,模型 能 取得 比较 好 
的 准确 率 和 召回 率 。 但 是 本 文 也 存在 一 些 不 足 : 混淆 
集 的 生成 规则 有 限 ， 只 考虑 了 4 种 情况 ; 模型 的 训练 
需要 大 量 的 计算 。 为 了 提高 模型 的 效率 , 在 今后 的 研 
究 中 , 需要 对 以 上 不 足 进行 改进 , 使 得 模型 的 纠 错 准 
确 率 和 效率 得 到 进一步 提升 。 
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Auto-Correction Search Model Based on Statistics and Characteristics 


Duan Jianyong Guan Xiaolong 
(College of Computer Science, North China University of Technology, Beijing 100144, China) 


Abstract: [Objective] This study aims to improve the precision, recall and user experience of the search engine. 
[Methods] We proposed an automatic query correction model based on the statistics and characteristics. First, 
established a model to generate the confusion query set for the users” search terms, Then, created a ranking algorithm 
for the confusion set and chose the best match for the original queries. [Results] Our new model improved the search 
engine’s performance. The precision and recall rates were 92.2% and 95% on a testing set of 110k, which were 13.6% 
and 8.3% higher than those of the N-gram model. [Limitations] Our model only generated four types of words for the 
confusion set, and the training process required a lot of computation. [Conclusions] The new model can improve 
the precision, recall and user experience of the search engine. 

Keywords: Query correction Confusion sets N-gram model N-gram similarity Levenshtein Distance(LD) 
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